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1. SOMMAIRE


Si ma fascination pour le Projet Gutenberg ne date pas d'aujourd'hui, elle ne
faiblit pas. A ce jour, personne n'a fait mieux pour mettre les classiques de la
littérature mondiale à la disposition de tous. Ni pour créer à moindres frais un
immense réseau de volontaires de par le monde, sans gâchis de compétences ni
d'énergie.

Résumons les choses en quelques phrases.

En juillet 1971, Michael Hart crée le Projet Gutenberg pour diffuser
gratuitement sous forme électronique les oeuvres littéraires du domaine public.
Un projet longtemps considéré par ses détracteurs comme impossible à grande
échelle. Site pionnier à tous égards, le Projet Gutenberg est à la fois le
premier site d’information sur un réseau encore embryonnaire et la première
bibliothèque numérique. Michael numérise lui-même les cent premiers livres.

Lorsque l’utilisation du web se généralise, au milieu des années 1990, le projet
trouve un second souffle et un rayonnement international. Tout en continuant de
numériser des livres, Michael coordonne désormais le travail de dizaines puis de
centaines de volontaires dans de nombreux pays. Les collections atteignent 1.000
livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre 2000 et
4.000 livres en octobre 2001.

Trente ans après ses débuts, le Projet Gutenberg fonctionne à plein régime. La
barre des 5.000 livres est franchie en avril 2002, celle des 10.000 livres en
octobre 2003 et celle des 15.000 livres en janvier 2005. Avec 400 nouveaux
livres par mois, 40 sites miroirs dans de nombreux pays et plusieurs dizaines de
milliers de téléchargements par jour.

Qu’ils aient été numérisés il y a vingt ans ou qu’ils soient numérisés
maintenant, tous les livres sont numérisés en mode texte, en utilisant l’ASCII
original sur sept bits, avec des règles précises pour le formatage. Grâce à quoi
les textes peuvent être lus sans problème quels que soient la machine, la
plate-forme et le logiciel utilisés, y compris sur un PDA ou sur un appareil de
lecture dédié. Libre ensuite à chacun - particuliers ou organismes - de les
convertir dans des formats différents, après avoir vérifié que les oeuvres sont
également du domaine public dans le pays concerné.

En janvier 2004, le Projet Gutenberg essaime outre-Atlantique avec la création
du Projet Gutenberg Europe. A la mission originelle s'ajoute le rôle de
passerelle entre les langues et les cultures. L’objectif étant une bibliothèque
d’un million de livres d’ici 2015, avec de nombreuses sections nationales et
linguistiques. Tout en conservant la même ligne de conduite: la lecture pour
tous à moindres frais, par le biais du texte électronique gratuit, indéfiniment
utilisable et reproductible. Et, dans un deuxième temps, la numérisation de
l'image et du son, dans le même esprit.


2. HISTORIQUE, DES ORIGINES A NOS JOURS


= La gestation en 1971

Revenons aux tous débuts du projet. Alors étudiant à l’Université d’Illinois
(Etats-Unis), Michael Hart se voit attribuer 100.millions de dollars de "temps
machine" par le laboratoire informatique (Materials Research Lab) de son
université. Le 4 juillet 1971, jour de la fête nationale, il saisit The United
States Declaration of Independence (Déclaration de l'indépendance des
Etats-Unis, signée le 4 juillet 1776) sur le clavier de son ordinateur. En
caractères majuscules, puisque les caractères minuscules n’existent pas encore.
Le texte électronique représente 5 Ko (kilo-octets). Mais l'envoi d'un fichier
de 5 Ko à la centaine de personnes que représentait le réseau de l'époque aurait
fait imploser celui-ci, la bande passante étant infime. Michael diffuse donc un
message indiquant où le texte est stocké (sans lien hypertexte toutefois,
puisque le web ne verra le jour que vingt ans après), suite à quoi le fichier
est téléchargé par six personnes. Le Projet Gutenberg était né.

Dans la foulée, Michael décide de consacrer ce crédit-temps de 100 millions de
dollars à la recherche des oeuvres du domaine public disponibles en bibliothèque
et à la numérisation de celles-ci. Il décide aussi de stocker les textes
électroniques de la manière la plus simple possible, au format ASCII, pour que
ces textes puissent être lus sans problème quels que soient la machine, la
plate-forme et le logiciel utilisés. Au lieu d'un ensemble de pages reliées, le
livre sera un texte électronique que l'on pourra dérouler en continu, avec des
lettres capitales pour les termes en italique, en gras et soulignés de la
version imprimée.

Peu après, il définit la mission du Projet Gutenberg: mettre à la disposition de
tous, par voie électronique, le plus grand nombre possible d’oeuvres du domaine
public. "Nous considérons le texte électronique comme un nouveau médium, sans
véritable relation avec le papier", explique-t-il beaucoup plus tard, en août
1998. "Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne
vois pas comment le papier peut concurrencer le texte électronique une fois que
les gens y sont habitués, particulièrement dans les écoles."

= La persévérance entre 1972 et 1989

Après avoir saisi The United States Declaration of Independence en 1971, Michael
poursuit ses efforts en 1972 en saisissant un texte plus long, The United States
Bill of Rights (Déclaration des droits américaine). Cette Déclaration des droits
comprend les dix premiers amendements ajoutés en 1789 à la Constitution des
Etats-Unis (qui date elle-même de 1787), et définissant les droits individuels
des citoyens et les pouvoirs respectifs du gouvernement fédéral et des Etats. En
1973, Michael saisit The United States Constitution (Constitution des
Etats-Unis) dans son entier.

D'une année sur l'autre, la capacité de la disquette augmente régulièrement (le
disque dur n'existe pas encore). Il est possible d'envisager des fichiers de
plus en plus volumineux. Michael entreprend la numérisation de la Bible,
composée elle-même de plusieurs "livres", qui peuvent être traités séparément et
occuper chacun un fichier différent. Il débute aussi la saisie des oeuvres
complètes de Shakespeare, une pièce après l'autre, avec un fichier pour chaque
pièce. Cette édition n'a d'ailleurs jamais été mise en ligne, du fait d'une loi
plus contraignante sur le copyright entrée en vigueur dans l'intervalle (et qui
visait non pas le texte de Shakespeare, tombé depuis longtemps dans le domaine
public, mais les commentaires et notes de cette édition). D'autres éditions
appartenant au domaine public ont été mises en ligne quelques années après.

Parallèlement, l’internet, qui était encore embryonnaire en 1971, débute
véritablement en 1974, suite à la création du protocole TCP/IP (Transmission
Control Protocol / Internet Protocol). A partir de 1983, le réseau est en plein
essor.

Le Projet Gutenberg fête la mise en ligne de son dixième texte, The King James
Bible, en août 1989.

= De dix à mille livres entre 1990 et 1996

En 1990, les internautes sont au nombre de 250.000, et le standard en vigueur
est la disquette de 360 Ko. En janvier 1991, Michael saisit Alice's Adventures
in Wonderland (Alice au pays des merveilles), de Lewis Carroll (paru en 1865).
En juillet de la même année, il saisit Peter Pan, de James M. Barrie (paru en
1904). Connus dans le monde entier, ces deux classiques de la littérature
enfantine tiennent chacun sur une disquette standard.

Arrive ensuite le web, opérationnel en 1991. Le premier navigateur, Mosaic,
apparaît en novembre 1993. Lorsque l’utilisation du web se généralise, il
devient plus facile de faire circuler les textes électroniques et de recruter
des volontaires. Le Projet Gutenberg rode sa méthode de travail, avec la
numérisation d’un texte par mois en 1991, deux textes par mois en 1992, quatre
textes par mois en 1993 et huit textes par mois en 1994. En janvier 1994, le
Projet Gutenberg fête son centième livre avec la mise en ligne de The Complete
Works of William Shakespeare (Les oeuvres complètes de William Shakespeare). La
production continue ensuite d’augmenter, avec une moyenne de huit textes par
mois en 1994, 16 textes par mois en 1995, puis 32 textes par mois en 1996.

Comme on le voit, entre 1991 et 1996, la production a donc doublé chaque année.
Tout en continuant de numériser des livres, Michael coordonne désormais le
travail de dizaines de volontaires. Depuis la fin 1993, le Projet Gutenberg
s’articule en trois grands secteurs: a) "Light Literature" (littérature de
divertissement), qui inclut par exemple Alice's Adventures in Wonderland, Peter
Pan ou Aesop’s Fables (Les Fables d’Esope); b) "Heavy Literature" (littérature
"sérieuse"), qui inclut par exemple La Bible, les oeuvres de Shakespeare ou Moby
Dick; c) "Reference Literature" (littérature de référence), composée
d’encyclopédies et de dictionnaires, par exemple le Roget's Thesaurus. (Cette
présentation en trois secteurs sera abandonnée par la suite.)

Le Projet Gutenberg se veut "universel" aussi bien pour les oeuvres choisies que
pour le public visé. Le but étant de mettre la littérature à la disposition de
tous, en dépassant largement le public habituel des étudiants et des
enseignants. Le secteur consacré à la littérature de divertissement est destiné
à amener devant l’écran un enfant d’âge pré-scolaire comme une personne du
troisième âge. Le but étant que des enfants et leurs grands-parents recherchent
le texte électronique de Peter Pan après avoir vu le film Hook, ou bien qu'ils
lisent la version électronique d’Alice au pays des merveilles après avoir
regardé le film à la télévision. Ou alors qu'ils recherchent l'origine d'une
citation après avoir vu un épisode de Star Trek. Pratiquement tous les épisodes
de Star Trek citent des livres ayant leur correspondant numérique dans les
collections du Projet Gutenberg.

L’objectif est que tous les publics, qu’ils soient familiers ou non avec le
livre imprimé, puissent facilement retrouver des textes entendus dans des
conversations, des films, des musiques, ou alors lus dans d'autres livres, des
journaux, des magazines. Les fichiers électroniques prennent peu de place grâce
à l'utilisation du format ASCII. On peut facilement les télécharger par le biais
de la ligne téléphonique. La recherche textuelle est tout aussi simple. Il
suffit d’utiliser la fonction “recherche” présente dans n’importe quel logiciel.

= Un millier de livres en août 1997

En 1997, la production est toujours de 32 titres par mois. En juin 1997, le
Projet Gutenberg met en ligne The Merry Adventures of Robin Hood (Les aventures
de Robin des Bois), de Howard Pyle (paru en 1883). En août 1997, il met en ligne
son millième texte électronique, La Divina Commedia di Dante (La Divine Comédie
de Dante, parue en 1321), dans sa langue d'origine, en italien.

En août 1998, Michael écrit: "Mon projet est de mettre 10.000 textes
électroniques sur l'internet. (Ce sera chose faite en octobre 2003, ndlr.) Si je
pouvais avoir des subventions importantes, j’aimerais aller jusqu’à un million
et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la
population mondiale, ce qui représenterait la diffusion de 1.000 fois un
milliard de textes électroniques au lieu d'un milliard seulement."

= De mille à cinq mille livres entre 1998 et 2002

Entre 1998 et 2000, la moyenne est constante, avec 36 textes par mois. En mai
1999, les collections comptent 2.000 livres. Le 2.000e texte est Don Quijote
(Don Quichotte),de Cervantès (paru en 1605), dans sa langue d'origine, en
espagnol.

La moyenne est de 40 livres par mois pendant le premier semestre 2001. Elle
passe à 50 livres par mois pendant le deuxième semestre. Disponible en décembre
2000, le 3.000e titre est le troisième volume de A l’ombre des jeunes filles en
fleurs, de Marcel Proust (paru en 1919), dans sa langue originale, en français.

Mis en ligne en octobre 2001, le 4.000e texte est The French Immortals Series
(La série des Immortels français), en anglais. Publié en 1905 par la Maison
Mazarin (Paris), ce livre rassemble plusieurs fictions d’écrivains couronnés par
l’Académie française, comme Emile Souvestre, Pierre Loti, Hector Malot, Charles
de Bernard, Alphonse Daudet, etc.

Disponible en avril 2002, le 5.000e texte est The Notebooks of Leonardo da Vinci
(Les Carnets de Léonard de Vinci), qui datent du début du 16e siècle. Un texte
qui, en 2005, se trouve toujours dans le "Top 100" des livres téléchargés.

En 1988, Michael Hart avait choisi de numériser Alice's Adventures in Wonderland
et Peter Pan parce que, dans l'un et l'autre cas, leur version numérisée tenait
sur la disquette standard de l'époque (360 Ko). Quinze ans plus tard, en 2002,
on dispose de disquettes de 1,44 Mo (méga-octets) et on peut aisément compresser
les fichiers au format ZIP. Un fichier standard peut désormais comporter trois
millions de caractères, plus qu’il n’en faut pour un livre de taille moyenne. Un
roman de 300 pages numérisé au format ASCII tient sur 1 Mo. Un livre volumineux
est composé de deux fichiers ASCII, téléchargeables tels quels ou en version
zippée.

Cinquante heures environ sont nécessaires pour sélectionner un livre, vérifier
qu'il est bien du domaine public, le scanner, le corriger, le formater et le
mettre en page.

Quelques numéros d'eBooks sont "réservés" pour l'avenir. Par exemple le numéro
1984 (eBook # 1984) est réservé au roman éponyme de George Orwell, publié en
1949, et qui est loin d'être dans le domaine public.

En 2002, les collections s’accroissent en moyenne de 100 titres par mois. Au
printemps 2002, elles représentent le quart des oeuvres du domaine public
disponibles sur le web, recensées de manière pratiquement exhaustive par
l'Internet Public Library (IPL). Un beau résultat dû au patient travail d'un
millier de volontaires actifs dans plusieurs pays.

= Dix mille livres en octobre 2003

1.000 livres en août 1997, 2.000 livres en mai 1999, 3.000 livres en décembre
2000, 4.000 livres en octobre 2001, 5.000 livres en avril 2002, 10.000 livres en
octobre 2003. Le 10.000e livre est The Magna Carta qui, signée au début du 13e
siècle, fut le premier texte constitutionnel anglais.

Entre avril 2002 et octobre 2003, en dix-huit mois, les collections ont doublé,
passant de 5.000 à 10.000 livres, avec une moyenne mensuelle de 300 livres
numérisés. En décembre 2003, la quasi-totalité des livres (9.400 titres) est
également gravée sur un DVD, produit par le Projet Gutenberg pour l'occasion. Un
CD "Best of Gutenberg" était disponible dès août 2003 avec une sélection de 600
livres (ce CD faisant suite à d'autres CD diffusés antérieurement). CD et DVD
sont envoyés gratuitement à qui en fait la demande. Libre ensuite à chacun de
faire autant de copies que possible pour ses amis et connaissances.

Dix mille livres. Un chiffre impressionnant quand on pense à ce que cela
représente de pages scannées, relues et corrigées. Une croissance rapide due à
l’activité de Distributed Proofreaders, un site conçu en 2000 par Charles Franks
pour permettre la correction partagée. Les volontaires choisissent un livre en
cours de traitement pour relire et corriger une page donnée. Chacun travaille à
son propre rythme. A titre indicatif, le site conseille une page par jour. C'est
peu de temps sur une journée, et c’est beaucoup pour le projet.

En décembre 2003, les collections approchent les 11.000 livres. Plusieurs
formats sont désormais présents, à commencer par les formats HTML, XML et RTF,
le format principal (et obligatoire) restant l'ASCII. Le tout représente 46.000
fichiers, soit 110 Go (giga-octets). Le 13 février 2004, date de la conférence
de Michael Hart au siège de l'UNESCO, à Paris, les collections comprennent très
exactement 11.340 livres dans 25 langues différentes. En mai 2004, les 12.581
livres disponibles représentent 100.000 fichiers dans 20 formats différents,
soit 135 Go. Avec 400 nouveaux livres numérisés par mois (un nombre destiné lui
aussi à augmenter), le nombre de giga-ocets devrait doubler chaque année.

= Quinze mille livres en janvier 2005

En janvier 2005, le Projet Gutenberg fête ses 15.000 livres, avec la mise en
ligne de The Life of Reason, de George Santayana (paru en 1906). En juin 2005,
le nombre de livres s'élève à 16.000, dans 42 langues. Début août 2005, outre
l'anglais (14.590 livres le 3 août 2005), six langues disposent d'un nombre de
livres significatif: le français (578 livres), l'allemand (349 livres), le
finnois (225 livres), le hollandais (130 livres), l'espagnol (105 livres) et le
chinois (69 livres).

Michael espère franchir la barre du million de livres d’ici 2015. Chacun de ses
courriels comprend le chiffre du jour, et la "distance" restant à franchir
jusqu'au nombre significatif suivant. En juillet 2005, la prochaine barre à
franchir est celle des 20.000 titres. Elle devrait être atteinte en juillet
2006, pour le 35e anniversaire du Projet Gutenberg.

A la suite du lancement de Distributed Proofreaders Europe en janvier 2004 par
le Projet Rastko, le Projet Gutenberg Europe débute sur le web en juin 2005,
avec la mise en ligne des cent premiers livres. La présence de plusieurs langues
reflète la diversité linguistique prévalant en Europe. Cent langues sont prévues
sur le long terme. Le Project Gutenberg of Australia (lancé en 2001) fête ses
500 livres en juillet 2005, tandis que le Project Gutenberg of Canada fait ses
premiers pas (avec un suivi grâce à la liste PGCanada). Les choses sont en bonne
voie pour un Projet Gutenberg au Portugal et aux Philippines.


3. LE DOMAINE PUBLIC, UN VASTE SUJET


Malgré l'enthousiasme et la ténacité de ses centaines de volontaires, la tâche
du Projet Gutenberg n’est guère facilitée par les coups de boutoir portés au
domaine public. A une époque lointaine, 50% des oeuvres appartenaient au domaine
public, et pouvaient donc être librement utilisées par tous. Aujourd’hui, 99%
des oeuvres sont régies par le droit d’auteur, et certains aimeraient que ce
pourcentage passe à 100%.

Dans la section Copyright HowTo, le Projet Gutenberg détaille les calculs à
faire pour déterminer si un titre publié aux Etats-Unis appartient ou non au
domaine public. Les oeuvres publiées avant 1923 sont soumises au droit d’auteur
pendant 75 ans à partir de leur date de publication (elles sont tombées dans le
domaine public). Les oeuvres publiées entre 1923 et 1977 sont soumises au droit
d’auteur pendant 95 ans à partir de leur date de publication (rien ne tombera
dans le domaine public avant 2019). Une oeuvre publiée à partir de 1998 est
soumise au droit d’auteur pendant 70 ans à partir de la date du décès de
l’auteur s’il s’agit d’un auteur personnel (rien dans le domaine public avant
2049), ou alors pendant 95 ans à partir de la date de publication (ou 120 ans à
partir de la date de création) s’il s’agit d’un auteur collectif (rien dans le
domaine public avant 2074). Tout ceci dans les grandes lignes. D’autres règles
viennent s’ajouter à ces règles de base.

Nettement plus contraignante que la précédente, la législation actuelle est
entérinée par le Congrès le 27 octobre 1998. "Le copyright a été augmenté de 20
ans", explique Michael Hart en juillet 1999. "Auparavant on devait attendre 75
ans, on est maintenant passé à 95 ans. Bien avant, le copyright durait 28 ans
(plus une extension de 28 ans si on la demandait avant l’expiration du délai)
et, avant cela, le copyright durait 14 ans (plus une extension de 14 ans si on
la demandait avant l’expiration du délai). Comme on le voit, on assiste à une
dégradation régulière et constante du domaine public."

Les dates évoquées par Michael sont:

a) 1790, date de la main-mise de la Guilde des imprimeurs (les éditeurs de
l’époque) sur l’imprimerie (le copyright de 14 ans est institué);

b) 1909, date du renforcement du copyright pour contrer la réédition de vastes
collections du domaine public sur les nouvelles presses à vapeur puis
électriques (le copyright passe à 28 ans);

c) 1976, date d'un nouveau durcissement du copyright suite l’apparition de la
photocopieuse lancée par Xerox (le copyright passe à 50 ans après le décès de
l’auteur);

d) 1998, date d'un durcissement supplémentaire du copyright suite au
développement rapide de l’internet (le copyright passe à 70 ans après le décès
de l’auteur). Tout ceci encore une fois dans les grandes lignes, la loi sur le
copyright ayant été retouchée onze fois durant les 40 dernières années.

Pour ceux qui souhaitent creuser le sujet, les principaux textes législatifs
sont les suivants:

a) Le 1790 Copyright Act institue un copyright de 14 ans après la date de
publication de l’oeuvre, plus une extension de 28 ans si celle-ci est demandée
avant l’expiration du délai.

b) Le 1831 Copyright Act institue un copyright de 28 ans après la date de
publication de l’oeuvre, plus une extension de 14 ans si celle-ci est demandée
avant l’expiration du délai, à savoir un total de 42 ans.

c) En 1909, la période de l’extension est doublée, et passe à 28 ans. Le tout
représente un total de 56 ans.

d) Entre 1962 et 1974, tout copyright en cours avant le 19 septembre 1962
n’expire pas avant le 31 décembre 1976.

e) Le 1976 Copyright Act institue un copyright d’une durée de 50 ans après le
décès de l’auteur.

f) En 1998, les amendements apportés à cette loi allongent la durée du copyright
à 70 ans après le décès de l’auteur.

(Source: Trend of Maximum U.S. General Copyright Term, par Tom W. Bell, avec un
graphique explicatif très clair.)

Les amendements du 27 octobre 1998 portent un coup très rude aux bibliothèques
numériques et scandalisent ceux qui les gèrent, à commencer par Michael Hart et
John Mark Ockerbloom, créateur de The Online Books Page. Mais comment faire le
poids vis-à-vis des majors de l’édition? Michael explique en juillet 1999: "J’ai
été le principal opposant aux extensions du copyright, mais Hollywood et les
grands éditeurs ont fait en sorte que le Congrès ne mentionne pas mon action en
public. Les débats actuels sont totalement irréalistes. Ils sont menés par
'l’aristocratie terrienne de l’âge de l’information' et servent uniquement ses
intérêts. Un âge de l’information? Et pour qui?"

En effet. Les instances politiques ne cessent de parler d’âge de l’information
alors que, en parallèle, elles durcissent la réglementation relative à la mise à
disposition de cette information. La contradiction est flagrante. Un
durcissement similaire a touché l'Australie (ce qui a obligé le Project
Gutenberg of Australia à retirer des dizaines de livres de ses collections) et
plusieurs pays d'Europe. La règle générale est désormais un copyright de 70 ans
après le décès de l'auteur, alors qu'il était auparavant de 50 ans. Ceci suite
aux pressions exercées par les éditeurs de contenu, sous le prétexte
d'"harmoniser" les lois nationales relatives au copyright pour répondre à la
"mondialisation du marché".

Donc, pour résumer ces considérations quelque peu austères mais combien utiles
si on veut voir son livre favori mis en ligne, tout volontaire est requis de
choisir de préférence un livre imprimé paru avant 1923. Il est également requis
d'envoyer à Michael une photocopie des pages de titre du livre (recto et verso,
y compris si la page verso est blanche), ces pages étant précieusement
conservées au fil des ans pour justifier, si besoin, que le livre est bien du
domaine public. Cette démarche initiale est obligatoire et elle est dénommée
Copyright Clearance. La photocopie est désormais remplacée par l'envoi des pages
scannées par le biais d'un logiciel présent sur le site. La réponse est envoyée
par courriel quelques jours après. Il reste possible d'envoyer des photocopies
par voie postale si on n'a vraiment pas d'autre solution.

Une lueur d'espoir existe toutefois pour les livres parus après 1923. D’après
Greg Newby, directeur du PGLAF (Project Gutenberg Literary Archive Foundation),
un million de livres publiés aux Etats-Unis entre 1923 et 1964 appartiendrait en
fait au domaine public, puisque seuls 10% des copyrights sont effectivement
renouvelés. Le Projet Gutenberg s'est donné pour tâche de tenter de localiser
ces livres. En avril 2004, grâce aux centaines de volontaires de Distributed
Proofreaders, on dispose d'une liste pour tous les livres publiés entre 1950 et
1977 dont le copyright a été renouvelé. Si un livre publié pendant cette période
ne figure pas sur cette liste, cela signifie qu'il est tombé dans le domaine
public et qu'on peut donc le traiter.


4. LA METHODE ADOPTEE PAR LE PROJET GUTENBERG


Qu’ils aient été numérisés il y a des années ou qu’ils soient numérisés
maintenant, tous les livres sont numérisés en mode texte, en utilisant l’ASCII
(American Standard Code for Information Interchange) original. Utilisé dès les
débuts de l'informatique et dénommé Plain Vanilla ASCII, cet ASCII sur sept bits
correspond aux touches du clavier anglais ou américain (A-Z, a-z, chiffres,
ponctuation et quelques symboles). Dans le cas de langues autres que l'anglais,
on utilise l'ASCII sur huit bits (appelé également ISO-8859 ou ISO-Latin) pour
prendre en compte les caractères accentués. Mais, même dans ce cas, le Projet
Gutenberg propose aussi systématiquement en complément une version ASCII sur
sept bits sans accents. Sauf, bien entendu, dans le cas de langues non
"traduisibles" en ASCII, comme le chinois, qui est encodé au format Big-5.

Dénommé à juste raison "le plus petit dénominateur commun", l'ASCII sur sept
bits est le seul format compatible avec 99% des machines et des logiciels, et
pouvant être converti dans de nombreux autres formats. Il sera toujours utilisé
quand d’autres formats auront disparu, à commencer par les formats éphémères
liés à quelques appareils de lecture lancés entre 1999 et 2003 et déjà disparus
du marché. Il est l’assurance que les collections ne deviendront jamais
obsolètes, et survivront aux changements technologiques des prochaines décennies
ou même des prochains siècles. Il n'existe pas d'autre standard aussi largement
utilisé pour le moment, y compris l'Unicode, un système d'encodage "universel"
créé en 1991.

Le Projet Gutenberg propose toutefois certains livres dans d’autres formats,
notamment dans les trois formats répandus que sont les formats HTML, XML et RTF.
Des fichiers Unicode sont également présents. De plus, tout format proposé par
tel ou tel volontaire est généralement accepté (PDF, LIT, TeX et beaucoup
d'autres), dans la mesure où un fichier ASCII est également présent.

Mais, pour une conversion à grande échelle, le relais est passé à d'autres
organismes. Par exemple Blackmask Online, qui puise dans les collections du
Projet Gutenberg pour proposer des milliers de livres gratuits dans huit formats
différents, tous issus du format Open eBook (OeB). Ou encore Manybooks.net, qui
convertit les collections du Projet Gutenberg dans des formats lisibles sur PDA.
Ou encore Bookshare.org, la grande bibliothèque numérique destinée aux personnes
aveugles et malvoyantes résidant aux Etats-Unis. Outre la mise en ligne des
nouveautés, Bookshare.org utilise les collections du Project Gutenberg pour
offrir les classiques du domaine public au format braille et au format DAISY
(Digital Audio Information System).

En quoi consiste exactement le travail, une fois reçue la confirmation que le
livre est bien du domaine public? Il consiste à scanner le livre page après
page, ce qui donne des fichiers numérisés en mode image, puis à utiliser un
logiciel OCR (Optical Character Recognition), qui permet de convertir chaque
fichier "image" en un fichier texte. Il consiste ensuite à relire le contenu du
fichier texte au regard de l’original (image scannée ou livre imprimé) en
corrigeant les erreurs, à savoir dix erreurs par page en moyenne quand le
logiciel OCR est de qualité.

Le livre est relu et corrigé à deux reprises, par deux personnes différentes.
Les livres anciens sont parfois saisis ligne après ligne, à cause du manque de
clarté du texte original. Certains volontaires préfèrent également taper
eux-mêmes des textes courts, ou des oeuvres qu’ils aiment particulièrement. Mais
les livres sont le plus souvent scannés et "OCRisés", puis relus et corrigés.

Contrairement à la numérisation en mode image (n'utilisant que l'étape du
scanner), la numérisation en mode texte permet la copie du texte, l’indexation,
la recherche plein texte, l’analyse textuelle, une étude comparative entre
plusieurs textes, etc. On peut aussi lancer une recherche à partir de la
fonction "recherche" proposée par n’importe quel programme, sans logiciel de
recherche intermédiaire.

De plus, le Projet Gutenberg propose une fonction "recherche" sur l’ensemble de
ses collections, grâce à un partenariat avec Google, avec mise à jour mensuelle.
Ainsi qu'une recherche sur les métadonnées (auteur, titre, descriptif,
mots-clefs) grâce à un partenariat avec Yahoo!, avec mise à jour hebdomadaire
(voir l'Online Book Catalog en déroulant la page jusqu'en bas). Pour la
recherche avancée (Advanced Search), la recherche multicritères (auteur, titre,
sujet, langue, catégorie, classification, format, numéro) inclut désormais un
critère supplémentaire de recherche plein texte (Full Text, situé en dernière
ligne du menu de l'Advanced Search), à titre expérimental.

Les avantages de la numérisation en mode texte sont multiples. Les fichiers
prennent peu de place et circulent d’autant plus facilement. Contrairement à
d’autres formats, le téléchargement d’un livre au format texte ne requiert pas
de bande passante large. Le fichier texte peut être copié à l’infini, et
constituer la base de centaines de nouvelles versions numériques et imprimées,
pour un coût pratiquement nul. A tout moment, on peut corriger les erreurs de
typographie qui auraient pu subsister. Les lecteurs peuvent changer à volonté la
police et la taille des caractères, ainsi que les marges ou le nombre de lignes
par page. Le lecteur malvoyant peut grossir la taille des polices et le lecteur
aveugle utiliser un logiciel de reconnaissance vocale. Tout ceci est nettement
plus difficile, sinon impossible, avec de nombreux autres formats.

Si la correction par deux personnes différentes permet de mettre en ligne un
texte fiable à 99,9%, le but n’est pas pour autant de créer des éditions faisant
autorité, ou d’épiloguer sans fin avec un lecteur pointilleux sur le bien-fondé
ou non d’un signe de ponctuation tel qu'un "deux points" à la place d’un "point
virgule" entre deux propositions.

Le Projet Gutenberg insiste régulièrement sur la nécessité de la relecture,
qu'il juge essentielle. Utiliser directement des livres scannés puis convertis
au format texte par un logiciel OCR, sans relecture, donne un résultat de bien
moindre qualité, avec une fiabilité de 99% dans le meilleur des cas. L'étape de
la relecture et de la correction permet d'atteindre une fiabilité de 99,95% (ce
pourcentage élevé est aussi le standard de la Library of Congress).

Le Projet Gutenberg s’inscrit donc dans une perspective assez différente du
Million Book Project, autre initiative lancée par plusieurs professeurs de la
Carnegie Mellon University et dont les collections (10.611 livres le 1er juin
2005) sont hébergées par l'Internet Archive (qui héberge également les
collections du Projet Gutenberg, en tant que deuxième site de distribution et
site de sauvegarde). Dans le cas du Million Book Project, les livres sont
scannés puis "OCRisés", mais ils ne sont pas relus par des correcteurs
s'attachant à traquer les erreurs. Les livres sont généralement disponibles aux
formats XML, TIF et DjVu.

Disponible sur le site du Projet Gutenberg, le File Recode Service permet de
convertir les fichiers d'un système d'encodage (ASCII, ISO-8859, Unicode, Big-5,
etc.) à un autre. A l'avenir, un logiciel de conversion beaucoup plus puissant
devrait permettre la conversion automatique dans bien d’autres formats (XML,
HTML, PDF, TeX, RTF, braille, audio, etc.). Il sera également possible de
choisir d'emblée la taille et la police des caractères, ainsi que le fonds
d’écran. Une autre conversion très attendue est la conversion d'une langue à une
autre par le biais d'un logiciel de traduction automatique. Une telle conversion
devrait être possible dans quelques années, quand ce type de logiciel aura gagné
en qualité.


5. DISTRIBUTED PROOFREADERS, OU LA CORRECTION PARTAGEE


Le "bond en avant" récent du Projet Gutenberg est dû à l'activité de Distributed
Proofreaders.

Distributed Proofreaders est conçu en 2000 par Charles Franks pour gérer la
correction partagée entre les volontaires. A l'origine, le site est censé
intensifier la production de livres du Projet Gutenberg. Il en devient la
principale source. En 2002, Distributed Proofreaders est officiellement affilié
au Projet Gutenberg. La progression est rapide. Distributed Proofreaders
comptabilise un total de 3.000 livres numérisés et corrigés en février 2004,
5.000 livres en octobre 2004 et 7.000 livres en mai 2005. Le 3 août 2005, le
site recense 7.639 livres versés dans les collections du Projet Gutenberg, 1.250
livres prêts à être versés dans les collections (en cours de dernière relecture
et assemblage) et 831 livres en cours de correction.

Le site a pour but de permettre à plusieurs correcteurs de travailler
simultanément au même livre, sur des pages différentes. Le volontaire commence
par s’inscrire. Il reçoit des directives détaillées. Ces directives concernent
par exemple les parties en gras, en italique et soulignées, ou les notes, qui
sont toutes traitées de la même manière. Un forum permet de poser des questions
et de demander de l’aide si nécessaire. Quand le volontaire se connecte au site,
il sélectionne le livre de son choix à partir d'une liste donnée. Une page du
livre choisi apparaît simultanément dans deux versions: d’une part l’image
scannée, d’autre part le texte issu de cette image, produit par un logiciel OCR.
Le relecteur compare les deux versions et corrige les différences. Un logiciel
OCR étant fiable à 99%, cela représente une moyenne de dix erreurs à corriger
par page. La page est ensuite sauvegardée. Le relecteur peut soit cesser le
travail, soit opter pour la correction d'une autre page. Tous les livres sont
relus et corrigés deux fois de suite, et, pour la deuxième fois, uniquement par
des correcteurs expérimentés. Les pages corrigées sont ensuite formatées selon
des règles précises et assemblées par d'autres volontaires pour obtenir un
eBook. Durant la totalité du processus, un livre donné est suivi par un "project
manager", qui s'assure du bon déroulement des opérations. Après la mise en forme
suit la mise en ligne, avec indexation rapide (titre, sous-titre, numéro de
l'eBook et format) puis catalogage détaillé (dates de naissance et de mort de
l'auteur, classification de la Library of Congress, etc.).

Les volontaires n’ont aucun quota à respecter. A titre indicatif, il est suggéré
de relire une page par jour, si possible. Cela semble peu, mais une page
multipliée par des centaines de volontaires représente un chiffre considérable.
En 2003, une moyenne de 250 à 300 relecteurs quotidiens répartis dans le monde
entier a permis de produire entre 2.500 et 3.000 pages par jour, ce qui
représentait deux pages par minute. En 2004, la moyenne était de 300 à 400
relecteurs quotidiens produisant entre 4.000 et 7.000 pages par jour, à savoir
quatre pages par minute.

Les volontaires peuvent également travailler de manière indépendante, en
s’adressant directement au Projet Gutenberg. Ils peuvent saisir leur livre
préféré de bout en bout sur le traitement de texte de leur choix. Ils peuvent
aussi scanner eux-mêmes un livre, le convertir en texte par le biais d’un
logiciel OCR et faire les corrections nécessaires en comparant le résultat à
l’original. Dans les deux cas, une deuxième relecture est effectuée par une
autre personne. Toute participation est bienvenue, quelle que soit la méthode
adoptée. Il est tout à fait possible de joindre d'autres formats en complément
du fichier ASCII.

Aussi bien pour Distributed Proofreaders (DP-INT) que pour Distributed
Proofreaders Europe (DP Europe), de nouveaux volontaires sont bienvenus, y
compris pour les livres en français. Tout le monde est bienvenu. Et la tâche est
immense. Comme indiqué sur les deux sites, "DP ne s'attend pas à un engagement
inconditionnel de votre part. Corrigez des textes aussi souvent que vous le
voulez, et le nombre de pages que vous voulez. Nous encourageons les gens à
corriger une page par jour, mais vous êtes tout à fait libre de faire ce qui
vous plaît. Nous espérons que vous vous joindrez à notre mission de 'préserver
la littérature mondiale dans un format gratuit et disponible pour tous'."


6. BIENTOT DES COLLECTIONS MULTILINGUES


Qu'en est-il exactement des langues?

Dans un premier temps, le Projet Gutenberg est essentiellement anglophone,
puisqu’il est basé aux Etats-Unis et qu'il sert en priorité la communauté
anglophone nationale et internationale.

En octobre 1997, Michael Hart annonce son intention d'intensifier la production
de livres dans des langues autres que l'anglais. Début 1998, le catalogue
comprend quelques oeuvres en allemand, en espagnol, en français (dix titres), en
italien et en latin. En juillet 1999, Michael écrit: "J'introduis une nouvelle
langue par mois maintenant, et je vais poursuivre cette politique aussi
longtemps que possible."

Début 2004, 25 langues sont représentées. En juillet 2005, 42 langues sont
représentées, dont l'iroquois, le sanscrit et les langues mayas. Outre l'anglais
(14.548 livres le 27 juillet 2005), six langues disposent de plus de cinquante
titres: le français (577 livres), l'allemand (349 livres), le finnois (218
livres), le hollandais (130 livres), l'espagnol (103 livres) et le chinois (69
livres).

La quantité de livres progresse rapidement pour chaque langue. Pour le français
par exemple, sur 11.340 livres disponibles le 13 février 2004, on comptait
seulement 181 livres en français. Sur 15.505 livres disponibles le 16 mai 2005,
on compte 547 livres en français. Soit trois fois plus en quinze mois. Le
mouvement devrait sensiblement s'accélérer ces prochaines années avec la mise en
ligne du Projet Gutenberg Europe en juin 2005.

Quels furent les premiers titres dans la langue de Molière? Ce furent six romans
de Stendhal et deux romans de Jules Verne, tous mis en ligne au début de 1997.
Les six romans de Stendhal sont L’Abbesse de Castro, Les Cenci, La Chartreuse de
Parme, La Duchesse de Palliano, Le Rouge et le Noir et Vittoria Accoramboni, et
les deux romans de Jules Verne De la terre à la lune et Le tour du monde en
quatre-vingts jours. A la même date, si aucun titre de Stendhal n'est disponible
en anglais, trois romans de Jules Verne le sont: 20,000 Leagues Under the Seas
(Vingt mille lieues sous les mers, mis en ligne en septembre 1994), Around the
World in 80 Days (Le tour du monde en quatre-vingts jours, mis en ligne en
janvier 1994) et From the Earth to the Moon (De la terre à la lune, mis en ligne
en septembre 1993). Stendhal et Jules Verne sont suivis par Edmond Rostand avec
Cyrano de Bergerac, mis en ligne en mars 1998.

A la fin de 1999, le "Top 20", à savoir la liste des vingt auteurs les plus lus,
mentionne Jules Verne à la onzième place, et Emile Zola à la seizième place. Ils
sont toujours en bonne position dans le "Top 100" actuel.

Pour l'image, à titre anecdotique, le premier document disponible toutes langues
confondues est French Cave Paintings (Peintures des cavernes en France), mis en
ligne dès avril 1995, avec une version XHTML ajoutée en novembre 2000. Il s’agit
de quatre photos de peintures paléolithiques retrouvées dans une grotte de
l’Ardèche (un département du sud-ouest de la France, dans la région
Rhône-Alpes). Ces photos, sous copyright, ont été mises à la disposition du
Projet Gutenberg par Jean Clottes, conservateur général du patrimoine, pour que
tout le monde en profite.

En 2004, le multilinguisme est devenu l'une des priorités du Projet Gutenberg,
tout comme l'internationalisation. Michael Hart prend son bâton de pèlerin vers
l’Europe, avec des étapes à Bruxelles, Paris et Belgrade. Le 12 février 2004, il
donne une conférence au siège de l’UNESCO (Organisation des Nations Unies pour
l'éducation, la science et la culture), à Paris. Le lendemain, toujours à Paris,
il anime un débat à l’Assemblée nationale. La semaine suivante, il s’adresse au
Parlement européen, à Bruxelles. Puis il rend visite à l'équipe du Projet
Rastko, à Belgrade. Le tout pour mieux faire connaître le Projet Gutenberg et
pour soutenir la création de Distributed Proofreaders Europe (lancé en janvier
2004) et du Project Gutenberg Europe (conçu à la même date, et mis en ligne en
juin 2005).

Le lancement de Distributed Proofreaders Europe (DP Europe) par le Projet Rastko
en janvier 2004 représente une étape très importante. DP Europe est calqué sur
le site original de Distributed Proofreaders, pour gérer la relecture partagée
du Projet Gutenberg Europe. Dès ses débuts, DP Europe est un site multilingue,
qui prend en compte les principales langues nationales. En avril 2004, grâce à
des traducteurs volontaires, le site de DP Europe est disponible en douze
langues. L'objectif à moyen terme est soixante langues, et donc soixante équipes
linguistiques, avec prise en compte de toutes les langues européennes. Quand il
aura atteint sa vitesse de croisière, DP Europe devrait alimenter plusieurs
bibliothèques numériques nationales et/ou linguistiques, par exemple le Projet
Gutenberg France pour la France. Le but étant que chaque pays ou région ait son
propre accès réseau autorisé (respectant la législation en vigueur dans le pays
donné), qui sera un accès local au sein d’un réseau continental (dans le cas de
la France, le réseau européen) et d'un réseau global (à l’échelle de la
planète).

Quelques mots maintenant sur le Projet Rastko, qui s'est porté volontaire pour
un pari aussi fou, catalysant du même coup les bonnes volontés européennes à
l'est comme à l'ouest (et partout ailleurs: l'internet n'ayant pas de
frontières, il n'est pas utile d'habiter l'Europe pour s'inscrire). Fondé en
1997, le Projet Rastko est une initiative non gouvernementale à vocation
culturelle et pédagogique, un de ses objectifs étant la mise en ligne de la
culture serbe. Il fait partie de la Balkans Cultural Network Initiative, un
réseau culturel régional couvrant la péninsule des Balkans (située au sud-est de
l'Europe).

En mai 2005, Distributed Proofreaders Europe fête son centième livre numérisé
par ses soins. En juin 2005, le Projet Gutenberg Europe débute sur le web avec
la mise en ligne des cent premiers livres. La "norme" utilisée pour définir le
domaine public est l'équation "décès de l'auteur + 50 ans". Le 3 août 2005,
Distributed Proofreaders Europe recense 137 livres versés dans les collections
du Projet Gutenberg Europe, 418 livres prêts à être versés dans les collections
(en cours de dernière relecture et assemblage) et 125 livres en cours de
correction. DP Europe utilise l'Unicode, pour pouvoir traiter des livres dans un
grand nombre de langues. L'Unicode (créé en 1991) est un système d’encodage qui
attribue un code unique à chaque caractère, pour la totalité des langues de la
planète.


7. DU PASSE... VERS L'AVENIR


10 livres en août 1989, 100 livres en janvier 1994, 1.000 livres en août 1997,
2.000 livres en mai 1999, 3.000 livres en décembre 2000, 4.000 livres en octobre
2001, 5.000 livres en avril 2002, 10.000 livres en octobre 2003, 15.000 livres
en janvier 2005. Et une prévision d’un million de livres d’ici 2015.

Mais les résultats du Projet Gutenberg ne se mesurent pas seulement à ces
chiffres, qui restent encore assez modestes par rapport à la production
imprimée. Les résultats se mesurent également à l'influence du projet, qui est
considérable. Premier site d’information sur l’internet et première bibliothèque
numérique, le Projet Gutenberg a inspiré bien d'autres bibliothèques numériques,
par exemple le Projekt Gutenberg-DE pour la littérature allemande ou le Projekt
Runeberg pour la littérature scandinave, pour n'en citer que deux.

La structure administrative et financière du Projet Gutenberg se limite au
strict minimum, avec une devise qui tient en trois mots: "Less is more". Michael
insiste régulièrement sur la nécessité d'un cadre aussi souple que possible
laissant toute initiative aux volontaires, et la porte grande ouverte aux idées
nouvelles. Le but est d’assurer la pérennité du projet indépendamment des
crédits, des coupures de crédits et des priorités politiques et culturelles du
moment. Pas de pression possible donc par le pouvoir et par l’argent. Et respect
à l’égard des volontaires, qui sont assurés de voir leur travail utilisé pendant
de nombreuses années, si ce n’est pour plusieurs générations (d'où l'intérêt
d'un format qui soit toujours valable dans quelques siècles). Les volontaires
disposent d'un suivi régulier grâce à une lettre d'information (quotidienne et
mensuelle) et des forums de discussion. Les donations servent essentiellement à
l’achat de matériel, surtout des ordinateurs et des scanners. Créé en 2000, le
PGLAF ( Project Gutenberg Literary Archive Foundation) emploie en tout et pour
tout trois personnes à temps partiel.

Chose souvent passée sous silence, Michael Hart est le véritable inventeur de
l'eBook. Si on considère l’eBook dans son sens étymologique, à savoir un livre
numérisé pour diffusion sous forme de fichier électronique, celui-ci aurait
maintenant 34 ans et serait né avec le Projet Gutenberg en juillet 1971. Une
paternité beaucoup plus réconfortante que les divers lancements commerciaux dans
un format propriétaire ayant émaillé le début des années 2000. Il n'y a aucune
raison pour que la dénomination "eBook" ne désigne que l'eBook commercial et
soit réservée aux Amazon, Barnes & Noble, Gemstar et autres. L'eBook non
commercial est un eBook à part entière, et non un parent pauvre, tout comme
l'édition électronique non commerciale est une forme d'édition à part entière,
et tout aussi valable que l'édition commerciale. En 2003, les "eTexts" du Projet
Gutenberg deviennent des "eBooks", pour coller à la terminologie ambiante.

En juillet 1971, l’envoi d’un fichier de 5 kilo-octets à cent personnes aurait
fait sauter l’embryon de réseau disponible à l’époque. En novembre 2002, le
Projet Gutenberg peut mettre en ligne les 75 fichiers du Human Genome Project
(Le séquençage du génome humain), chaque fichier se chiffrant en dizaines sinon
en centaines de mégaoctets. Ceci peu de temps après sa parution initiale en
février 2001, puisqu'il appartient d'emblée au domaine public. En 2004, la
capacité de stockage des disques durs est telle qu'il serait possible de faire
tenir l’intégralité de la Library of Congress sur un support de stockage coûtant
140 dollars US. Et quelques années seulement nous sépareraient d'un support de
stockage permettant de stocker l’intégralité du patrimoine écrit de l’humanité.

Qu'en est-il des documents autres que l'écrit?

En septembre 2003, le Projet Gutenberg se lance dans la diffusion de livres
audio. En 2005, on compte 391 titres lus par l'ordinateur (Audio Book,
computer-generated) et quelques titres lus par l'être humain (Audio Book,
human-read). Le nombre de ces derniers devrait fortement augmenter dans un
proche avenir. Par contre, les titres lus par l'ordinateur ne devraient plus
être stockés dans une section spécifique, mais réalisés à la demande à partir
des fichiers électroniques existant dans les collections générales. Les lecteurs
aveugles ou malvoyants pourront utiliser la commande vocale pour demander le
texte de tel ou tel livre."

Lancée à la même époque, la section The Sheet Music Subproject est consacrée aux
partitions musicales numérisées (Music, Sheet). Elle est complétée par une
section d'enregistrements musicaux (Music, recorded). Des sections sont
également disponibles pour les images fixes (Pictures, still) et animées
(Pictures, moving). Ces nouvelles collections devraient être développées dans
les prochaines années.

Mais la numérisation des livres reste prioritaire. Et la demande est énorme. En
témoigne le nombre de téléchargements, qui se comptent désormais en dizaines de
milliers par jour. A la date du 31 juillet 2005, on compte 37.532 fichiers
téléchargés dans la journée, 243.808 fichiers téléchargés dans la semaine (du 24
au 31 juillet) et 1.154.765 fichiers téléchargés dans le mois. Ceci uniquement
pour le principal site de téléchargement, ibiblio.org (University of North
Carolina at Chapel Hill, Etats-Unis), qui héberge aussi le site du Projet
Gutenberg. Le deuxième site de téléchargement est l'Internet Archive, qui met
également à disposition une capacité de stockage considérable. Le Projet
Gutenberg dispose de 44 sites miroirs répartis dans de nombreux pays, et il en
cherche d'autres. La circulation de fichiers est bienvenue par P2P
(Peer-to-Peer), un système permettant d'échanger des fichiers directement d'un
utilisateur à un autre. Le "Top 100" recense les cent titres et les cent auteurs
qui ont été le plus téléchargés dans la journée, dans la semaine et dans le
mois.

Les livres du Projet Gutenberg peuvent également aider à combler la "fracture
numérique". Ils sont aisément téléchargeables sur PDA. Le prix des ordinateurs
et des PDA baisse régulièrement. Un ordinateur ou un PDA d'occasion ne coûte que
quelques dollars ou quelques dizaines de dollars, en fonction du modèle.
Certains PDA fonctionnent à l’énergie solaire, permettant la lecture dans les
régions reculées et les pays en développement.

Quant aux CD et aux DVD, le support lui-même coûte une somme infime, tout comme
le gravage des données. Le Projet Gutenberg envoie un CD ou DVD gratuit à toute
personne qui en fait la demande. Libre ensuite à chacun de faire des copies pour
sa famille, ses collègues et ses amis, sans oublier la bibliothèque et l'école
du quartier. Un CD "Best of Gutenberg" daté d'août 2003 contient 600 eBooks. Le
premier DVD, disponible en décembre 2003, contient 9.400 eBooks. Un deuxième DVD
est en préparation. En juillet 2005, le prototype, rempli aux trois quarts,
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formats).

Lorsque, dans une dizaine d'années, les collections atteindront un million de
livres, on pourra peut-être bénéficier de leur traduction immédiate dans cent
langues différentes. En utilisant la traduction automatique qui, d’ici là,
pourrait avoir atteint un taux de fiabilité de l’ordre de 99% (un pourcentage
dont on est encore loin, malgré des équipes de recherche très actives). En 2004,
le Projet Gutenberg était en lien avec un projet européen envisageant une
traduction automatique qui serait relayée par des traducteurs (non pas des
machines, mais des êtres humains), un peu comme la technologie OCR est
actuellement relayée par des correcteurs (non pas des logiciels, mais des êtres
humains).

Trente-quatre ans après les débuts du Projet Gutenberg, Michael Hart se définit
toujours comme un fou de travail dédiant toute sa vie à son projet, qu’il voit
comme étant à l’origine d’une révolution néo-industrielle. Il se définit aussi
comme altruiste, pragmatique et visionnaire. Après avoir été traité de toqué
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mission du Projet Gutenberg reste la même, à savoir changer le monde par le
biais de l'eBook gratuit indéfiniment utilisable et reproductible. L'objectif
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